我们研究了\ textit {在线}低率矩阵完成的问题,并使用$ \ mathsf {m} $用户,$ \ mathsf {n} $项目和$ \ mathsf {t} $ rounds。在每回合中,我们建议每个用户一项。对于每个建议,我们都会从低级别的用户项目奖励矩阵中获得(嘈杂的)奖励。目的是设计一种以下遗憾的在线方法(以$ \ mathsf {t} $)。虽然该问题可以映射到标准的多臂强盗问题,其中每个项目都是\ textit {独立}手臂,但由于没有利用武器和用户之间的相关性,因此遗憾会导致遗憾。相比之下,由于低级别的歧管的非凸度,利用奖励矩阵的低排列结构是具有挑战性的。我们使用探索-Commit(etc)方法克服了这一挑战,该方法确保了$ O(\ Mathsf {polylog}(\ Mathsf {m}+\ \ \ \ \ Mathsf {n})\ Mathsf {t}^{2/2/ 3})$。 That is, roughly only $\mathsf{polylog} (\mathsf{M}+\mathsf{N})$ item recommendations are required per user to get non-trivial solution.我们进一步改善了排名$ 1 $设置的结果。在这里,我们提出了一种新颖的算法八进制(使用迭代用户群集的在线协作过滤),以确保$ O(\ Mathsf {polylog}(\ Mathsf {M}+\ Mathsf {N})几乎最佳的遗憾。 ^{1/2})$。我们的算法使用了一种新颖的技术,可以共同和迭代地消除项目,这使我们能够在$ \ Mathsf {t} $中获得几乎最小的最佳速率。
translated by 谷歌翻译